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Einfiihrung 


Abstract 


This paper presents an agent for the game of Abalone. The agent uses self play and 
Reinforcement Learning techniques. The algorithms used are quite similar to those 
used in Abalearn. A Rise-Sensitive variation of Tesauro's TD(lambda) algorithm is 
used. The main focus is placed on finding an efficient yet expressive board represen¬ 
tation. To this end, different combinations of popular board features are evaluated. 
Resulting in an extremely compact board representation. Different reward functions 
are tried and compared. 

To evaluate the resulting agents, they are pitted against a fixed reference agent and 
against one another. 
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Einfiihrung 


1 Einfiihrung 


Atome spalten ist ein Kinderspiel, verglichen mit einem Kinderspiel. 
(Albert Einstein, 1879-1955) 

Der Mensch spielt nur, wo er in voller Bedeutung des Wortes Mensch ist, 
und er ist nur da ganz Mensch, wo er spielt. 

(Friedrich Schiller, 1795) 


1.1 Warum beschaftigt man sich mit Spielen in der Wissen- 
schaft? 

Die altesten bekannten Brettspiele wurden vor rund 5500 Jahren gespielt (Piccione 
1980). Seit je her sind Brettspiele ein integraler Bestandteil menschlicher Zivilisation. 
Sie werden zum Zeitvertreib und zum Training abstrakter Denkstrukturen gespielt. 
So konnen Spiele ein niitzliches Kognitionstraining darstellen. Die Forschung an 
Spielen ist ein grofier Teilbereich der kiinstlichen Intelligenz. Die Griinde hierfiir sind 
vielfaltig. Einerseits bietet sich durch die Beliebtheit von Brettspielen ein recht grofier 
Markt fur Programme die spielen konnen. Andererseits ist die Beschaftigung mit 
Spielen nicht nur reiner Selbstzweck. 

Fur die Erforschung kunstlicher Intelligenz bilden Brettspiele klar definierte und 
strukturierte Domanen. Wissen, das bei der Erforschung von Spielen gewonnen 
wird, lasst sich oft fur die Losungen ernsthafterer Probleme adaptieren. 

1.2 Ziele dieser Arbeit 

Das Hauptziel dieser Arbeit ist es mit Methoden des verstarkenden Lernens (eng. 
reinforcement learning) einen Agenten zu trainieren, der Abalone spielt. Dabei kann 
auf die Ergebnisse von Campos und Langlois (Campos und Langlois 2003), sowie 
von Lee und Noh (Lee und Noh 2007) zuruckgegriffen werden. Wahrend sich Cam¬ 
pos und Langlois hauptsachlich mit der Risikobereitschaft ihres Agenten beschaftig- 
ten, untersuchten Lee und Noh die Auswirkungen unterschiedlicher Grundstellun- 
gen auf das Lernverhalten. In der vorliegenden Arbeit werden unterschiedliche Re¬ 
prasentationen des Spielbrettes untersucht. Wahrend die vorangegangenen Arbeiten 
sich auf eine beziehungsweise drei unterschiedliche Reprasentationen beschrankten, 
werden hier mehrere hundert Reprasentationen verglichen. 

Zudem werden alternative Belohnungsfunktionen evaluiert und die Auswirkungen 
unterschiedlich schnell sinkender Lernraten auf die Lerngeschwindigkeit getestet. 

1.3 Uberblick 

Diese Arbeit ist in sieben Abschnitte eingeteilt. Der zweite Abschnitt stellt das Spiel 
Abalone mit Regeln und einigen wichtigen Eigenschaften vor. Abschnitt drei be- 
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schaftigt sich mit existierenden Abaloneprogrammen, wobei besonderer Wert auf die 
jeweilig verwendete Spielbrettreprasentation gelegt wird. Im vierten Abschnitt wer- 
den die Lernumgebung und die verwendeten Algorithmen erlautert. Abschnitt flint 
beschreibt detailliert, welche Experimente durchgeflihrt werden. Die Ergebnisse die- 
ser Experimente werden in Abschnitt sechs illustriert. Zum Abschluss werden diese 
Ergebnisse in Abschnitt sieben diskutiert. 
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2 Abalone 


Abalone wurde 1987 von Michael Lalet und Laurent Levi entwickelt. Es ist ein stra- 
tegisches Brettspiel fur zwei Personen. Seit seiner Entwicklung hat es verschiedene 
Preise gewonnen, darunter den "Super As d'Or" im Jahre 1989 und den "Mensa Se¬ 
lect" im Jahre 1990. Es ist ein Nullsummenspiel mit vollstandiger Information. 



Abbildung 1: Das Spielfeld in Grundstellung 


2.1 Die Regeln des Spiels 

Abalone wird auf einem sechseckigen Spielfeld mit 61 Lochern gespielt(siehe Abbil¬ 
dung 1). Ziel des Spieles ist es mit den eigenen Murmeln die Murmeln des Gegners 
vom Brett zu werfen. Die Spieler ziehen abwechselnd. In jedem Zug bewegt man ei¬ 
ne, zwei oder drei eigene Murmeln. Sieger ist, wer zuerst sechs gegnerische Murmeln 
vom Brett verdrangt hat. 

Ziige 

Es ist moglich, Murmeln in alle sechs Richtungen zu bewegen. Man wahlt eine, zwei 
oder drei eigene Murmeln, welche benachbart sind und in einer Reihe liegen. Diese 
kann man um ein Feld in eine beliebige (aber fur alle Murmeln gleiche) Richtung 
bewegen. 

Schieben gegnerischer Murmeln 

Das Verschieben gegnerischer Murmeln ist moglich, wenn mehr eigene Murmeln 
bewegt werden als gegnerische. Ziige in denen gegnerische Murmeln bewegt wer- 
den, nennt man Sumitos. Es gibt drei Arten von Sumitos, welche in Abbildung 2 il- 
lustriert werden. 
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Abbildung 2: von links 2-1-Sumito, 3-1-Sumito und 3-2-Sumito 


2.2 Komplexitat des Spiels 

Bei der Komplexitat von Brettspielen spricht man von drei unterschiedlichen Fakto- 
ren. Diese werden in folgendem Abschnitt erklart. Danach wird ein Vergleich zwi- 
schen Abalone und anderen Zwei-Spieler Nullsummenspielen mit vollstandigen In- 
formationen gefuhrt. 

• Verzweigungsfaktor (eng. branching factor) 

Der Verzweigungsfaktor gibt an wie viele mogliche Ziige es durchschnittlich 
in einer Stellung gibt. Bei Abalone befindet er sich im Bereich von 60-80 (Lee 
und Noh 2007). 

• Zustandsraumkomplexitat (eng. state space) 

Die Komplexitat des Zustandsraumes gibt an wie viele verschiedene Spielzu- 
stande erreichbar sind. Bei Abalone sind es ungefahr 6,5 * 10 23 
unterschiedliche Zustande. (Lemmens 2005) 

• Spielbaumkomplexitat (eng. game tree) 

Ein Spielbaum ist ein Baum, der Spielzustande als Knoten und Ziige als Kan- 
ten darstellt. Der vollstandige Spielbaum eines Spiels ist der Spielbaum, bei 
dem ausgehend von der Grundstellung alle moglichen Ziige aus jeder er- 
reichbaren Stellung enthalten sind. Die Anzahl der Blatter dieses Baumes wird 
als Spielbaumkomplexitat bezeichnet. Sie gibt an auf wie viele Arten das Spiel 
gespielt werden kann. Da ein Abalonespiel theoretisch unendlich lange wei- 
tergefuhrt werden kann, muss die durchschnittliche Lange eines Spiels ver- 
wendet werden. Lemmens (Lemmens 2005) gibt die durchschnittliche Lange 
eines Spiels mit 87 Plys an. Daraus ergibt sich in Verbindung mit dem Ver¬ 
zweigungsfaktor eine Spielbaumkomplexitat von ungefahr 5 * 10 154 . 

Komplexitat im Vergleich 

In Tabelle 1 wird die Komplexitat von Abalone verglichen mit den Komplexitaten 
anderer bekannter Spiele. Der Verzweigungsfaktor von Backgammon ist aufgrund 
der stochastischen Natur des Spiels strittig. 
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Es ist interessant, dass Abalone sich im Verzweigungsfaktor und in der Spielbaum- 
komplexitat zwischen Xiangqi und Go ansiedelt. Dahingegen die Zustandsraum- 
komplexitat noch unter der von Miihle liegt. Die relativ niedrige Zustandsraum- 
komplexitat lasst hoffen, dass sich Abalone eines Tages durch Brute-Force losen lasst. 


Tabelle 1: Vergleich der Komplexitaten verschiedener Zwei-Spieler Nullsummenspiele mit 

vollstandiger Information 


Spiel 

Verzweigungs¬ 

faktor 

log(Zustandsraumkomplexitat) 

log(Spielbaum- 

komplexitat) 

Dame 

8-10 

17-21 

31 

Othello 

~5 

28 

58 

Schach 

30-40 

46 

123 

Backgammon 

-420 

20 

144 

Xiangqi 

75 

75 

150 

Abalone 

60-80 

23 

154 

Go 

360 

160-172 

360 


2.3 Schwache im Spieldesign 

Es existiert eine dem Spiel inharente Schwache im Design dieses Spiels, die dafiir 
sorgt das passive, defensive Spieler mit einer gewissen Erfahrung selbst gegen her- 
vorragenden Spieler ein Patt herausspielen konnen. Wenn in der in Abbildung 3 ge- 
gebenen Position der weifie Spieler pur defensiv spielt kann er niemals besiegt wer- 
den. 



Abbildung 3: Weib kann sich beliebig lange verteidigen 

Um dieses Problem zu losen, besteht zwischen menschlichen Spielern die Konventi- 
on, dass man nicht defensiv spielt. Da diese jedoch nicht bindend ist, gibt es ver- 
schiedene Ansatze, diese Situation zu verbessern: 

1. In Turnieren kann ein Schiedsrichter Zeitstrafen fur zu defensives Spiel verteilen. 
Es bleibt das Problem, dass "zu defensives Spiel" subjektiv ist. 
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2. Es gibt Varianten des Spiels, welche die Regeln andern. In der "Save Princess" Va- 
riante wird Beispielsweise eine neutrale Murmel in die Mitte des Feldes gelegt(siehe 
Abbildung 4). Gewonnen hat hier, wer zuerst die neutrale Murmel vom Feld schiebt. 



Abbildung 4: "Save Princess"-Variante 


3. Es existieren verschiedene Startaufstellungen, welche aggressives Spielen fordern 
sollen (siehe Abbildung 5). Hierbei bleibt die Frage, ob sich dadurch ein zu starker 
Vorteil fur den beginnenden Spieler ergibt. Es gibt Spieler die schon in der Grund- 
stellung bemangeln, dass der beginnende Spieler in nur drei Ziigen die Mitte relativ 
sicher erobem kann. Bei anderen Startaufstellungen konnen hier potentiell groSere 
Unausgewogenheiten entstehen. Seit dem Jahr 1999 wird bei der Abalone-Mind- 
Sport-Olympiade die Startaufstellung „Belgian Daisy" verwendet. Sie fiihrt zu inte- 
ressanteren Stellungen und eine passiv, defensive Spielweise fiihrt hier nicht zum 
Erfolg. 



Abbildung 5: Alternative Grundstellungen von links: "German Daisy", "Snakes", "Belgian Daisy" 
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2.4 Strategien 

Die Folgenden Strategien wurden von Ender Ozcan und Berk Hulagu (Hulagu und 
Ozcan 2004) aus verschiedenen Internetforen zusammen getragen. 

• Die Anzahl der zwei oder drei Murmeln in einer Reihe macht die Armee eines Spielers 
mdchtig. 

• Ein Hexagon von Murmeln zwischen Murmeln des Gegners erlaubt es in alle Rich- 
tungen anzugreifen und zu verteidigen. 

• Eine Murmel an einen Ort zu ziehen, an der sie nicht an andere eigene Murmeln 
grenzt, ist keinegute Strategie. 

• Die Murmeln des Gegners an den Rand des Brettes zu schieben ermoglicht es/fderzeit 
Rauszviirfe zu erzielen. 

• Es ist nicht zu jeder Zeit ratsam, Murmeln des Gegners hinauszuwerfen. Wenn da- 
durch die eigene Verteidigung oder Angriffskraft gemindert wird, ist es manchmal 
besser zu warten. 

• Eine moglichst starke Verteidigung ist grundlegend fur den Erfolg. Mit der Zeit 
konnte daraus ein Angriffsvorteil entstehen, wenn der Gegner unachtsam wird. 

• Teile und herrsche; die gegnerische Armee in mehrere Teile zu zerschlagen senkt seine 
Angriffsstdrke. Es ist einfacher mit mehreren schwachen Armeen fertig zu werden, als 
mit einer starken. 

Diese Strategien lassen sich auf zwei grundlegende Prinzipien reduzieren: 

1. Man behalte seine Murmeln beisammen und zwinge den Gegner seine 
aufzuteilen. 

2. Man behalte seine Murmeln in der Mitte des Spielfeldes und zwinge den 
Gegner an den Rand. 
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3 Verwandte Arbeiten 


In diesem Abschnitt werden zwei Arten von Arbeiten besprochen. Zunachst zwei 
der verbreitetesten Abaloneprogramme. Anschliefiend zwei Arbeiten welche sich mit 
Abalone und verstarkendem Lernen beschaftigen. Bei alien wird besonderer Wert 
auf die verwendete Representation des Spielfeldes gelegt. 

3.1 AbaPro 

AbaPro von Timo Werner (2002) ist eines der spielstarksten heute verfiigbaren 
Abaloneprogramme (Aichholzer, Aurenhammer and Werner 2002). Es verwendet 
eine Minimax-Suche mit heuristischem pruning. 2003 gewann AbaPro in der 8. 
Computer Olympiade der ICGA die Goldmedaille. 

Ziige, die als "uninteressant" erkannt wurden, werden im Folgenden nicht weiter 
betrachtet. AbaPro ist als Freeware erhaltlich auf: 

http: / / www. ist. tugr az. at/staff/ aichholzer/resear ch/rp/ab alone/ 

Als Bewertungsheuristik wird folgende verwendet: 

1. Berechne die Massenzentren der weifien und der schwarzen Murmeln. 

2. Nimm einen gewichteten Durchschnitt dieser Zentren und des Brettmittelpunktes. Benen- 
ne diesen Referenzpunkt R. 

3. Summiere die Distanzen alter weifien Murmeln zu R (analog fiir die schwarzen Murmeln). 
Distanzen werden entlang der sechs Zugrichtungen berechnet. Dies ist eine hexagonale Ver¬ 
sion der bekannten Manhattan Distanz. 

4. Die Differenz der beiden Summen ergibt die Bewertung der Position. 

3.2 MyLovelyAbalone 

MyFovelyAbalone von David Malek ist ein anderes Minimaxsuche-Programm. Auf 
der Seite: http://moggames.net/production/bin-release/MIG5326.aspx kann man On¬ 
line gegen das MFA antreten. Unter den verwendeten Bewertungsheuristiken finden 
sich folgende (Stand 4.12.2006): 

Adj azenz (Verbundenheit) 

Anzahl der Murmeln 
Anzahl der Sumitos 

Anzahl der Sumitos, welche den Brettmittelpunkt beriihren 
Anzahl der Verdrangungsbedrohungen 
Massenschwerpunkt (im Sinne von AbaPro) 

Quelle hierfur sind die Aussagen des Autors in einem Internetforum (Malek 2006). 
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3.3 Abalearn 

Abalearn von Pedro Campos und Thibault Langlois ist die erste Arbeit, die sich mit 
Temporal Difference Learning und Abalone beschaftigt. Nach dem Vorbild von 
TDGammon verwendeten sie den TD(A)-Algorithmus, den sie jedoch um den in 
"Risk-Sensitive Reinforcement Learning" (Mihatsch und Neuneier 2002) vorgestellten 
Risikoparameter erweiterten. Dieser Risikoparameter half der in 2.3 erwahnten Pas- 
sivitat entgegen zu wirken. Da der Zustandsraum von Abalone zu komplex ist, um 
komplett betrachtet zu werden, verwendeten sie als Bewertungsfunktion ein vor- 
wartsgerichtetes mehrstufiges neuronales Netz mit Backpropagation. In dieser Arbeit 
wurden die folgenden Brettzustandseigenschaften als Eingaben in das Netz verwen- 
det: 

1. Anzahl der Murmeln im Zentrum des Brettes 

2. Anzahl der Murmeln in der Mitte des Brettes 

3. Anzahl der Murmeln am Rand des Brettes 

4. Materialvorteile 

5. Protektion (Wie viele eigene Murmeln auf alien Seiten von eigenen Murmeln 
benachbart sind) 

6. Durchschnittliche Distanz der Murmeln zur Mitte des Brettes 

7. Anzahl der Bedrohungen 

Sowohl fur die wei ben als auch fur die schwarzen Murmeln. 

3.4 Abalone Project 

Diese Arbeit von Benson Lee und Hyun Joo Noh (Lee und Noh 2007) baut auf den 
Ergebnissen von Abalearn auf. Das Hauptaugenmerk dieser Arbeit liegt auf der Fra- 
ge ob Heuristiken, welche die Symmetric des Spielbrettes ausnutzen, wirklich ange- 
bracht sind. Sie vertraten die These, dass unter Verwendung der Standard- 
Grundstellung jeder Spieler die Seite auf der er beginnt anders behandeln sollte, als 
die auf der der Gegner startet. Ihre Ergebnisse lassen jedoch darauf schliefien, dass 
dies keine tragende Rolle spielt. 

Als Netzeingaben wurden hier folgende Brettzustandseigenschaften verwendet: 

1. Durchschnittliche Manhattan Distanz der Murmeln zur Mitte des Brettes 

2. Anzahl der Murmeln im Zentrum des Brettes 

3. Anzahl der Murmeln in der Mitte des Brettes 

4. Anzahl der Murmeln am Rand des Brettes 

5. Anzahl der bedrohten Murmeln. Eine Murmel gilt als bedroht, wenn sie im 
nachsten gegnerischen Zug verdrangt werden kann 

6. Kompaktheit (Summe der Manhattan Distanzen zwischen den Murmeln eines 
Spielers) 

7. Protektion 
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4 Verwendete Algorithmen 


In dieser Arbeit wird eine in Abalearn (Campos und Langlois 2003) vorgestellte Va- 
riante von Tesauros TD(A) verwendet. Sie unterscheidet sich vom urspriinglichen 
TD(A)-Algorithmus darin, dass ein zusatzlicher Parameter fur die Risikofreudigkeit 
des Agenten hinzugefligt wird. 


Vorhergesagte Gewinnwahrscheinlichkeit Vt 



Abalone Spielfeldzustand 2-22 Eingabeknoten 

Abbildung 6: Das Neuronale Netzwerk sowie die maximale und die minimale Anzahl an verwendeten 

Knoten fur die Eingabe- und Ausgabeschicht 

4.1 Bewertungsfunktion 

Mit Hilfe eines neuronalen Netzes eine Bewertungsfunktion V(s) gelernt. Eine per- 
fekte Bewertungsfunktion gabe fiir jeden Spielzustand die Gewinnwahrscheinlich¬ 
keit des Spielers an. Da das Spiel, wie in 2.2 gezeigt, ca. 10 A 23 Zustande hat, ist es 
nicht moglich diese Funktion in Form einer Tabelle darzustellen. Stattdessen wird 
ein neuronales Netz verwendet, um die Bewertungsfunktion zu approximieren. Dies 
fuhrt zu gewissen Schwierigkeiten. Im Falle, dass ein nichtlinearer 
Funktionsapproximator (wie ein neuronales Netz) verwendet wird, ist die Konver- 
genz von TD(A) nicht garantiert. 


4.2 Neuronales Netzwerk 

Um die Bewertungsfunktion anzunahern wird ein vorwartsgerichtetes Neuronales 
Netzwerk mit einer versteckten Schicht und Backpropagation verwendet. Die ver- 
steckte Schicht umfasst zwischen acht und zweiunddreifiig Neuronen. Als Aktivie- 
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rungsfunktion der versteckten Schicht wird die Sigmoidfunktion verwendet. Fur die 
Ausgabeschicht hingegen eine lineare Funktion. Alle Gewichte werden mit zufalli- 
gen Werten zwischen -0,01 und 0,01 initialisiert. 

4.3 Bestarkendes Lernen 

Bestarkendes Lernen ist ein Teilbereich des maschinellen Lernens. Anders als bei 
uberwachtem oder unuberwachtem Lernen wird erst nach mehreren Aktionen des 
Agenten Feedback gegeben. Gelernt wird im Allgemeinen eine Strategic, die jedem 
Zustand eine entsprechende Aktion zuweist. Dabei wird versucht, die Belohnungen 
zu maximieren. Im Vorliegenden Fall wird jedoch nicht direkt eine Strategic gelernt, 
sondern eine Bewertungsfunktion: 

Strategic-. n(s ) = a 
Bewertung sfunktion-.V(s) — x 

Dabei ist s ein Spielzustand, a eine in s verfiigbare Aktion und x die Bewertung der 
Stellung in Zustand s. Die Verwendete Strategie ergibt sich aus der Bewertungsfunk¬ 
tion. Es wird diejenige Aktion ausgewahlt, deren Folgezustand die beste Bewertung 
hat. 

4.4 TD(A) 

Der TD(A) Algorithmus wurde von Richard S. Sutton (Sutton und Barto 1998) entwi- 
ckelt und in TD-Gammon mit grofiem Erfolg eingesetzt. Es handelt sich hierbei um 
einen Algorithmus bestarkenden Lernens. Er bietet eine Vorschrift, nach der die Be¬ 
wertungsfunktion gelernt werden kann. Die Anderungen der Bewertung eines Zu- 
stands hangen dabei von der Differenz, seiner Bewertung und der Bewertung der 
spater im Spiel auftretenden Zustande ab. Die Vorhersage der Gewinnwahrschein- 
lichkeit aus einem Zustand heraus, hangt dementsprechend von den Vorhersagen 
der folgenden Zustande ab. 

Die Anderungen der Bewertungsfunktion ergeben sich fur den Fall A = 0: 

V t (s t ) = E t -i(s t ) + a[R(s t ,a ) + yV t _ 1 (s t+1 ) -E t _i(s t )] 

Dabei sind: 

• V t die Bewertungsfunktion zur Zeit t 

• s t der Zustand zur Zeit t 

• a die Lernrate 0 < a < 1 

• a der Zug, der von s t nach s t+1 fiihrt 

• R (s, a) die Belohnung fur den Zustand s 

• y der Discount-Faktor mit 0 < y < 1 

Die Lernrate ist ein Parameter, welcher angibt, wie stark die Gewichte bei einem Up¬ 
date geandert werden. 
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Die Belohnungsfunktion R gibt eine Belohnung von 1 fur das Verdrangen gegneri- 
scher Murmeln und -1 fur den Verlust einer eigenen Murmel zuriick. In alien ande- 
ren Fallen gibt sie 0 zuriick. 

1 1, Zug a verdrangt gegnerische Murmel 
—1, die Reaktion auf a verdrangt eigene Murmel 
0, sonst 

Der Discount-Faktor zollt der Tatsache Rechenschaft, dass Zustande in der Zukunft 
nicht zwangsweise erreicht werden miissen. Daher sind die Belohnungen in der Zu¬ 
kunft unsicher und werden durch y abgewertet. Fur y wird ein Wert von 0,9 ver- 
wendet. 

Im Fall A > 0 wird nicht nur der nachste Folgezustand zum Update der Bewertungs- 
funktion herangezogen, sondern auch weiter in der Zukunft liegende Folgezustande. 
Der Parameter A gibt dabei an, wie stark weiter entfernt liegende Zustande in die 
Berechnung eingehen. 

4.5 TD(A) mit Risikofaktor 

Der von Mihatsch und Neuneier (Mihatsch und Neuneier 2002) vorgestellte und von 

Campos und Langlois erstmals in (Campos und Langlois 2003) verwendete Risikopa- 

rameter soli helfen die Risikobereitschaft des Agenten zu steuern. Zur Berechnung 

wird die folgende sogenannte Tranformationsfunktion verwendet: 

„ f(l — K)x,wennx > 0 
X . x 1 . 

( (1 + k)x ,sonst 

Sie wird verwendet um die temporalen Abweichungen entsprechend zu transformie- 
ren. Die entsprechend variierten Bewertungsfunktionsupdates sehen wie folgt aus: 

U(s t ) = + ax K [R(s t ) + yV t ^ 1 (s t+1 ) -P t _i(s t )] 

Daraus folgt, dass fur k < 0 Ziige mit negativen temporalen Abweichungen iiberbe- 
wertet werden. Wahrend flir k > 0 die Ziige mit positiver temporaler Abweichung 
liberbewertet werden. Das bedeutet, dass ein Agent der mit k < 0 trainiert wird risi- 
kofreudig ist, wahrend ein k > 0 zu einem Risiko vermeidenden Verhalten flihrt. 
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4.6 Exploration 

Wenn gierig immer die bestbewerteten Ziige gewahlt werden, dann wird immer das 
gleiche Spiel gespielt und keine neuen Zustande werden betrachtet. Deshalb wird ein 
Explorationsfaktor s genutzt. In jedem Zug wird mit einer Wahrscheinlichkeit von s 
ein zufalliger Zug gewahlt. Mit einer Wahrscheinlichkeit von 1- s der bestbewertete. 

4.7 Self-Play 

Self-Play ist die Bezeichnung einer Trainingstechnik. Dabei werden Spiele, aus denen 
gelernt wird erzeugt, indem der Agent gegen sich selbst spielt. 

Dies hat den Vorteil, dass er sich nicht auf einen festen Gegner einstellt und nicht nur 
versucht dessen Strategic zu schlagen. Ein Nachteil ist die Tatsache, dass zu Beginn 
beide Seiten kein Wissen tiber das Spiel besitzen und rein zufallig spielen. Das kann 
zu langeren Trainingszeiten fiihren. 

4.8 Referenzspieler 

Um die Qualitat der resultierenden Agenten bewerten und vergleichen zu konnen, 
bedarf es eines festen Referenzpunktes. Er muss ein gewisses Spielniveau erreichen, 
was einen zufallig spielenden Agenten ausschlieSt. Deshalb wird in dieser Arbeit ein 
schneller heuristischer Minimaxspieler verwendet. Er sucht bis in eine Tiefe von vier 
Plys. Dabei werden in jedem Schritt nur die drei bis dahin besten Ziige weiterbe- 
trachtet. Zur Bewertung wird eine optimierte Linearkombination zweier sehr einfa- 
cher Heuristiken verwendet: 

• Die Verdrangungsheuristik, die 1 ist wenn eine Murmel vom Brett geschoben 
wird und sonst 0. 

• Die Machtigkeitsheuristik, die die Anzahl der bewegten Murmeln angibt. 
Haben verschiedene Ziige dieselbe Bewertung, so erfolgt die Auswahl zufallig. 
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4.9 Spielzustandsreprasentation 

Es ist fur effizientes Lernen unabdingbar eine gute Reprasentation des Spielfeldes zu 
haben. Die intuitivste Reprasentation ist wohl jene, die ein Eingangsneuron fur jedes 
Feld des Spielbrettes besitzt und bei der die Belegung eines Neurons eins ist fur 
schwarze, minus eins fur weifie und null fur ein leeres Feld. Diese Reprasentation 
wurde in Abaleam (Campos und Fanglois 2003) untersucht. Feider lernt sie nicht 
besonders gut. Es werden deshalb alternative Reprasentationen gesucht, die auch in 
der Fage sind die Symmetrien des Spielfeldes auszunutzen. Die hier Verwendung 
findende Zusammenstellung von Heuristiken zur Zustandsbeschreibung ist eine 
Auswahl aus den Heuristiken, die von Abapro, My Fovely Abalone, Abaleam sowie 
dem Projekt von Fee und Noh verwendet werden. 

Die folgenden elf Heuristiken werden verwendet: 

1. Zweier: Anzahl der nebeneinanderliegenden Paare von eigenen Murmeln 

2. Dreier: Anzahl des Vorkommens von drei eigenen Murmeln in einer Reihe 

3. Zentrum: Anzahl der Murmeln im Zentrum des Brettes. Manhattan Distanz 
von hochstens eins zum Mittelpunkt. 

4. Rand: Anzahl der Murmeln am Rand des Brettes. 

5. Verdrangungen: Anzahl verdrangter Murmeln. 

6. Geschiitzte: Anzahl der auf alien Seiten von eigenen Murmeln umgebenen 
Murmeln. 

7. Isolierte: Anzahl der von alien anderen eigenen Murmeln isolierten Murmeln. 

8. Sumitos : Anzahl der moglichen Sumitos. 

9. Bedrohungen: Anzahl der Moglichkeiten im nachsten Zug eine gegnerische 
Murmel vom Brett zu verdrangen. 

10. Distanz zur Mitte: Durchschnittliche Distanz der Murmeln zum Mittelpunkt 
des Brettes. 

11. Zusammenhalt: Durchschnittliche Distanz der Murmeln zum Schwerpunkt 
der Murmeln. 
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5 Experimentbeschreibung 


5.1 Parameterauswahl 

Zunachst werden Optimalwerte fur einige Parameter bestimmt. Die betrachteten Pa¬ 
rameter sind: 

1. Grofie der versteckten Schicht 

2. Explorationsrate 

3. Lernrate 

4. Lambda 

5. Risikoparameter 

In Tabelle 2 werden die verschiedenen getesteten Belegungen illustriert. Die Aus- 
wahl moglicher Belegungen orientiert sich an den Werten, die von Lee und Noh (Lee 
und Noh 2007) als optimal gemeldet wurden. Um die optimalen Belegungen zu fin- 
den werden fur jede der 243 Kombinationen drei Durchlaufe zu je 1500 Spielen 
durchgefiihrt. 

Verwendete Heuristiken sind hierfiir: 

1. Anzahl der Murmeln im Zentrum des Brettes 

2. Anzahl der Murmeln in der Mitte des Brettes 

3. Anzahl der Murmeln am Rand des Brettes 

4. Anzahl verdrdngter Murmeln 

5. Durchschnittliche Distanz der Murmeln zur Mitte des Brettes 

6. Durchschnittliche Distanz der Murmeln zum Schwerpunkt der Murmeln 

Tabelle 2: Parameterwerte 


Parameter 

Verschiedene Belegungen 

Epsilon 

0,01 

0,05 

0,2 

Lernrate 

0,1 

0,05 

0,005 

Lambda 

0 

0,35 

0,7 

Grojie der versteckten Schicht 

8 

16 

32 

Risikoparameter 

0 

-0,35 

-0,7 


Gespielt wird mit einem Discount-Faktor von 0,9. Um das Lernen zu Beginn zu be- 
schleunigen, werden die ersten 100 Spiele gegen einen zufalligen Spieler gespielt. 
Dies dient hauptsachlich dazu, zu lernen Murmeln vom Brett zu verdrangen. 
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5.2 Bewertung der Zustandsbeschreibungen 

Ziel dieses Experimentes ist es, eine Bewertung des Nutzens der einzelnen Heurist- 
iken zu erhalten. Aus diesem Grund wird die Potenzmenge der Menge der Heurist- 
iken durchsucht. Diese enthalt 2 11 — 2048 Elemente. Aus Zeitgriinden konnen nicht 
alle 2048 Agenten trainiert werden. Es wird einerseits die Auswirkung des Weglas- 
sens einzelner Heuristiken, sowie von Paaren von Heuristiken untersucht. 

Die verwendeten Parameter entsprechen dem Ergebnis aus 5.1. Jeder Agent wird mit 
1000 Spielen trainiert. Um die Agenten vergleichbar zu machen, wird jeder von ih- 
nen in 100 Spielen gegen den Referenzspieler getestet. 

5.3 Variationen der Belohnungen 

Alle bisherigen Untersuchungen wurden mit einer Belohnung von +1 fur das vom 
Brett Verdrangen einer gegnerischen Murmel und -1 fur einen Murmelverlust verge- 
ben. Das Spiel endet aber erst nachdem sechs Murmeln eines Spielers das Spielbrett 
verlassen haben. Das sofortige Verdrangen gegnerischer Murmeln ist nicht immer 
von Vorteil. Manchmal ist es besser, die eigene Position zu festigen. GleichermaSen 
ist es nicht zwingend niitzlich, eine Murmel um jeden Preis zu beschiitzen. Es ware 
daher besser nur dann Belohnungen und Strafen zu verteilen, wenn das Spiel auch 
endet. In (Campos und Langlois 2003) stellen Campos und Langlois die These auf, 
dass es zu schwierig sei, einen Agenten mit derart wenig Feedback zu trainieren. 
Diese These wird hier untersucht. Indem Agenten die direkt nach verdrangen einer 
Murmel Feedback erhalten mit solchen verglichen werden, die erst am Ende des 
Spiels belohnt oder bestraft werden. 

Dariiber hinaus werden unsymmetrische Belohnungen betrachtet. Beispielsweise +2 
fur das Verdrangen gegnerischer und -1 fur den Verlust eigener Murmeln. Eine The¬ 
se ist, dass eine entsprechend hohere Gewichtung der Belohnung gegeniiber der Be- 
strafung den Risikoparameter iiberfliissig machen konnte. 

Es wird eine Reihe von Agenten trainiert, fur verschiedene Feedback-Funktionen 
und Werte von k . 
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Tabelle 3: Experimente zu variierten Belohnungen 


Nummer 

Belohnung 

fiir 

Verdrangen 

Strafe fiir 
verdrangt 
werden 

Belohnung 
fiir das 

Gewinnen 

Strafe 

fiir das 

Verlieren 

Risikoparameter 

K 

1 

1 

-1 

0 

0 

-0,7 

2 

1 

-1 

0 

0 

0 

3 

3 

-1 

0 

0 

-0,7 

4 

3 

-1 

0 

0 

0 

5 

1 

-3 

0 

0 

-0,7 

6 

1 

-3 

0 

0 

0 

7 

0 

0 

1 

-1 

-0,7 

8 

0 

0 

1 

-1 

0 

9 

0,5 

-0,5 

1 

-1 

-0,7 

10 

0,5 

-0,5 

1 

-1 

0 


5.4 Vergleich mit anderen Abaloneprogrammen 

Bislang wurden alle Agenten nur gegeneinander oder gegen den Referenzspieler ge- 
priift. Dadurch konnte nur relative Spielstarken ermittelt werden. Um sich einer ab- 
soluten Bewertung der Spielstarke anzunahern wird ein Agent der die Ergebnisse 
aller vorherigen Experimente nutzt trainiert. Dieser wird gegen MyLovelyAbalone 
und Aba-Pro spielen. 
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6 Ergebnisse 


6.1 Parametertests 

Jede Parameterbelegung wurde mit 100 Spielen gegen den Referenzspieler getestet. 
Als Bewertungsmafi wurden nicht die gewonnen Spiele, sondern die Differenz der 
gewonnenen und verlorenen Murmeln herangezogen. Die besten 10% davon werden 
weiter betrachtet. Tabelle 4 zeigt das Auftreten der einzelnen Belegungen nach Vari- 
ablen. 


Tabelle 4: Haufigkeit von Parameterbelegungen in den besten 10% der Agenten 


Parameter 

Belegung 

Vorkommen 

versteckte Knoten n 

8 

4 


16 

11 


32 

7 

Explorationsrate e 

0,01 

10 


0,05 

7 


0,2 

5 

Lernrate a 

0,005 

4 


0,05 

12 


0,1 

6 

A 

0 

5 


0,35 

8 


0,7 

9 

Risikoparameter k 

0 

5 


-0,35 

6 


-0,7 

11 


Diese besten 10% gelernten Agenten spielten ein Turnier in dem jeder in 100 Spielen 
gegen jeden antrat. Die Gewinner des Turniers werden in 
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Tabelle 5 vorgestellt. 

Jede gewonnene Murmel brachte einen Punkt jede verlorene einen Punkt Abzug. 


Lernen Abalone zu Spielen 


Seite 23/37 



Ergebnisse 


Tabelle 5: Die funf Topplatzierten des Turnieres zur Parameterwahl 


Platzierung 

Punkte 

n 

E 

a 

A 

K 

1 . 

3052 

8 

0,01 

0,1 

0,7 

-0,7 

2. 

2922 

16 

0,01 

0,005 

0,7 

-0,7 

3. 

2653 

16 

0,05 

0,05 

0,35 

-0,7 

4. 

2507 

16 

0,05 

0,1 

0,35 

-0,35 

5. 

1906 

16 

0,2 

0,05 

0,7 

0 


Interpretation der Ergebnisse: 

• Grofie der versteckten Schicht n: 

Die Ergebnisse beziiglich der versteckten Schicht lassen sich damit erklaren, 
dass eine Trainingsdauer von 1500 Spielen wahrscheinlich nicht ausreicht um 
32 versteckte Knoten anzupassen. Da vier der flint besten Agenten 16 ver- 
steckte Knoten verwenden, ist wird diese Anzahl weiter verwendet. 

• Explorationsfaktor s: 

Ein Wert von 0,2 scheint zu hoch zu sein. Es wird ein Wert von 0,01 gewahlt, 
da dieser sowohl in den besten 10% am Haufigsten auftritt, als auch jener ist, 
den die beiden Erstplatzierten verwenden. 

• Lernrate a: 

Die Ergebnisse lassen vermuten, dass eine Lernrate von 0,005 nicht geeignet 
ist, um schnell zu lernen. Daher wird ein Wert von 0,05 gewahlt um die Lern- 
geschwindigkeit zu erhohen. 

• TD Parameter A: 

Es zeigt sich, dass eine Verwendung von A > 0 offenbar Sinn macht. Der Wert 
von 0,7 bietet sich dafiir an. 

• Risikoparameter k: 

Eine Belegung mit k = —0,7 hat die besten Ergebnisse gebracht und wird so- 
mit genutzt. 


Lernen Abalone zu Spielen 


Seite 24/37 



Ergebnisse 


6.2 Auswahl der Heuristiken 

Zunachst wurde ein Agent mit alien verfligbaren Heuristiken trainiert. Abbildung 7 
zeigt seine Performanz gegen den Referenzspieler im Verlauf der 1000 Trainingsspie- 
le. 



Abbildung 7: Anteil der Siege eines Agenten, der mit alien Heuristiken trainiert wurde, 

gegen den Referenzspieler 

Nun wurden Agenten trainiert, die einzelne Heuristiken nicht verwendeten. Abbil¬ 
dung 8 zeigt sehr deutlich, dass die einzelnen Heuristiken in dieser Menge unter- 
schiedlich viel zum Sieg beitrugen. Der Agent, der ohne Dreier -Heuristik gelernt 
wurde, gewann zu keinem Zeitpunkt wahrend des gesamten Trainings mehr als 50% 
der Spiele. Hingegen scheint ein Weglassen der Zweier-Heu ristik das Lernen eher zu 
beschleunigen. 

Bei der Zusammenhalt-Heuristik ist das ahnlich. Eine mogliche Erklarung hierfiir ist, 
dass verschiedene Heuristiken ahnliche Eigenschaften abdecken. Beispielsweise sind 
sowohl Geschiitzte als auch Zusammenhalt Mafic fur das Zusammenhalten der eige- 
nen Murmeln. 
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Anzahl der Trainingsspiele 


Zusammenhalt 
Distanz zur Mitte 
Zentrum 
Rand 

Verdrangungen 

Geschutzte 

Isolierte 

Bedrohungen 

Sumitos 

Dreier 

Zweier 


Abbildung 8: Gewinnraten der Agenten, die ohne eine spezielle Heuristik trainiert wurden 


Wenn man Agenten mit nur neun der verwendeten Heuristiken lernen lasst, gewinnt 
man Informationen, dariiber welche Paare von Heuristiken wichtig sind. Im Umfang 
dieser Ausfuhrung ist es nicht moglich alle Ergebnisse vorzustellen, deshalb werden 
nur die interessantesten ausgewahlt. 



Abbildung 9: Anderungen im Lernverhalten durch Distanz zur Mitte und Zentrum 


Abbildung 9 zeigt beispielhaft, dass weder Zentrum noch Distanz zur Mitte benotigt 
werden um den Spielzustand angemessen zu reprasentieren. Ein Fehlen beider Heu- 
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ristiken flihrt jedoch dazu, dass keine nennenswerten Lernerfolge zu verzeichnen 
sind. Ahnlich sieht es bei Bedrohungen und Sumitos aus, siehe Abbildung 10. Als Be- 
grundung kann dienen, dass sowohl Zentrum als auch Distanz zur Mitte Aussagen 
dariiber treffen wer die Mitte beherrscht. Diese Information ist in keiner anderen 
Heuristik enthalten. Bei Sumitos und Bedrohungen ist die Sache noch eindeutiger, da 
jede Bedrohung auch ein Sumito ist. 
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Abbildung 10: im Lernverhalten durch Bedrohungen und Sumitos 


Mit den hier gewonnenen Informationen wird ein neuer Agent mit einer schlankeren 
Spielfeldreprasentation gelernt. Aufgrund der genannten Uberlegungen wird vermu- 
tet, dass die Lernfahigkeit durch das Entfernen unwichtiger Heuristiken nicht sinkt. 
Der Berechnungsaufwand wird jedoch deutlich geringer. 

Jede weggelassene Heuristik beschleunigt die Evaluation eines Spielzustands. 


Aufgrund der zuvor dargestellten Ergebnisse wird eine neue Auswahl von Heurist¬ 
iken getroffen. In jedem Fall verwendet werden jene Heuristiken, die fur sich ge- 
nommen die Lerngeschwindigkeit positiv beeinflussen. Diese sind Ra?id, Dreier, Be¬ 
drohungen. Desweiteren konnte gezeigt werden, dass je eine von Distanz zur Mitte 
und Zentrum , sowie Bedrohungen und Sumitos verwendet werden sollte. Gewahlt 
werden Distanz zur Mitte und Bedrohungen, da sie anscheinend mehr Einfluss auf das 
Ergebnis haben. 
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Abbildung 11: Vergleich der Gewinnraten gegen den Referenzspieler 


Der Agent, der aus dieser Auswahl gelernt wurde, wird in Abbildung 11 mit dem 
Agenten verglichen, der alle Heuristiken verwendet. Es ist zu sehen, dass der Agent 
mit der kleineren Auswahl an Heuristiken schneller lernt. Da jedoch beide relativ 
schnell einen Punkt erreichen an dem sie beinahe nicht mehr vom Referenzspieler 
besiegt werden, ist dieser Vergleich nicht besonders aussagekraftig. Deshalb zeigt 
Abbildung 12 das Ergebnis, wenn die beiden Agenten direkt gegeneinander spielen. 



Abbildung 12: Direkter Vergleich zwischen dem Agenten mit alien Heuristiken und dem mit Rand, 

Dreier, Bedrohungen und Distanz zur Mitte 
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6.3 Variationen der Belohnungen 

Fur jedes Experiment wird ein Agenten trainiert. Jeder Agent trainiert mit 2500 Spie- 
len. Getestet wird jeder Agent mit 100 Spielen gegen den Referenzspieler. Abkiirzend 
lassen sich Belohnungsfunktionen schreiben als: 

(x, y, a, b) 


Mit 


x: Belohnung fur Verdrangen 
y: Strafe fur Murmelverlust 
a: Belohnung fur Gewinn des Spiels 
b: Strafe fur Verlust des Spiels 

(+1,-1,+1,-1) reprasentiert beispielsweise die bislang verwendete Funktion. Abbildung 
13 zeigt noch einmal, dass unter Verwendung der bislang verwendeten Belohnungs- 
funktion, der Risikoparameter niitzlich ist. 
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k= -0,7 
■K=0 


Abbildung 13: Verwendung von (+3,-1 ,+3,-1) 
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Abgesehen davon, dass der Risikoparameter fur (+3,-l,+3 / l) uberfliissig ist, halten 
sich die Unterschiede symmetrischer und asymmetrischer Belohnungsfunktionen in 
Grenzen, siehe Abbildung 14. 
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Abbildung 14: Vergleich symmetrischer und asymmetrischer Belohnungen 


In Abbildung 15 ist zu sehen, dass es moglich ist zu lernen, selbst wenn erst am Ende 
des Spiels belohnt wird. Allerdings stimmt es auch, dass Belohnungen, die direkt 
nach dem Gewinn oder Verlust einzelner Murmeln gegeben werden, zu schnellerem 
und stabilerem Lernen fuhren. Dieses Ergebnis wird jedoch noch iibertroffen, wenn 
man beides kombiniert, fur den Gewinn oder Verlust des Spiels wird jedoch eine ho- 
here Belohnung beziehungsweise Strafe verteilt. Der Agent, der mit (+0.5,-0.5,+l,-l) 
trainiert wurde, lernte schneller und stabiler als seine Konkurrenten. 
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-■-( 0 , 0 , + 1 ,- 1 ) 
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Abbildung 15: Spate Belohnungen 
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6.4 Vergleich mit anderen Abaloneprogrammen 

Es wurde ein Agent mit 20.000 Spielen trainiert. 

An dieser Stelle werden noch einmal alle verwendeten Einstellungen Zusammenge- 
fasst. 

Parameter: 


n 

£ 

a 

A 

K 

16 

0,01 

0,05 

0,7 

-0,7 


Zustandsbeschreibung: 

o Rand, Dreier, Bedrohungen und Distanz zur Mitte 
Belohnungsfunktion: 
o (+0.5,-0.5,+l,-l) 

Es wurde je ein Spiel flir jeden Schwierigkeitsgrad von MyLovelyAbalone sowie 
Aba-Pro gespielt. Spiele wurden abgebrochen sobald ein Zyklus auftrat. 

MyLovelyAbalone verwendet flint unterschiedliche Schwierigkeitsgrade. Tabelle 6 
zeigt, dass nicht ein einziges Spiel gegen dieses Programm verloren wurde. Darliber 
hinaus wurde nur gegen den niedrigsten Schwierigkeitsgrad eine Murmel verloren. 
Dieses Spiel war auch das einzige, das regular beendet wurde. MyLovelyAbalone 
gibt an auf Level 5 ungefahr 100.000 Positionen pro Zug zu Evaluieren. Der hier 
trainierte Agent evaluiert nur zwischen 60 und 80 Positionen und gewinnt dennoch. 


Tabelle 6: Ergebnisse der Spiele gegen MyLovelyAbalone 


Level 

Gewonnene Murmeln 

Verlorene Murmeln 


1 

6 

1 


2 

4 

0 


3 

5 

0 


4 

5 

0 


5 

4 

0 


In 

Tabelle 7 sind die Ergebnisse gegen die ersten flint Schwierigkeitsstufen von Aba- 
Pro. Wie man sieht ist Aba-Pro ab Level 4 nicht mehr geschlagen worden. Dennoch 
werden einige Murmeln gewonnen. 


Tabelle 7: Ergebnisse der Spiele gegen Aba-Pro 


Level 

Gewonnene Verlorene 

Murmeln Murmeln 

1 

5 2 

2 

5 2 

3 

4 4 
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4 

5 


3 

3 


6 

6 
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7 Fazit und Ausblick 


Es wurden einige in der Abaloneprogrammierung verbreitete Zustandsheuristiken 
evaluiert und eine aussagekraftige aber doch kleine und effizient berechenbare Zu- 
standsreprasentation gefunden. Des weiteren wurden verschiedene Belohnungsfunk- 
tionen evaluiert. Es konnte gezeigt werden, dass durch asymmetrische Belohnungs- 
funktionen der in Abalearn eingefiihrte Risikoparameter uberfliissig wird. Belohnt 
man den Gewinn des Spiels hoher als ein einfaches Verdrangen, so ist das Lernen 
leichter und stabiler. Der resultierende Agent spielt auf einem Level, dass Gelegen- 
heitsspieler vor eine Herausforderung stellt. 


Zukiinftige Forschungen liefien sich in verschiedenen Richtungen ankniipfen. Zum 
einen ware eine Kombination aus bestarkendem Lernen und einer Spielbaumsuche 
interessant. Der in KnightCap (Baxter, Tridgell und Weaver 1998) verwendete TD- 
Leaf Algorithmus ware hierfiir geeignet. 

Auch ware es niitzlich, die Auswirkungen variabler Lernraten oder Risikoparameter 
zu untersuchen. Man konnte auch die Moglichkeit untersuchen verschiedene Agen- 
ten fur verschiedene Phasen des Spiels zu trainieren. Beispielsweise je einen fur Er- 
offnung, Mittelspiel und Endspiel. 

Fur jede Art weiterer Forschung ware es niitzlich, einen Server einzurichten auf dem 
die kiinstlichen Intelligenzen verschiedener Autoren gegeneinander spielen konnen. 

Der Vergleich mit anderen Ergebnissen ist sehr wichtig und im Moment nur unter 
Mlihen durchzufiihren. 
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Agent 

Ein Agent ist ein Computerprogramm, das 
zu gewissem eigenstandigen Verhalten fa- 
hig ist. 

Backpropagation 

Backpropagation ist ein verbreitetes Verfah- 
ren zum Einlernen kiinstlicher neuronaler 

Netzwerke. 

Bestarkendes Lernen 

Bestarkendes Lernen bzw. Verstarkendes 

Lernen ist der Uberbegriff fur eine Reihe 
von Methoden des Maschinellen Lernens 
bei denen ein Agent den Nutzen von Akti- 
onsabfolgen in einer Welt bestimmt. 

Brute-Force 

Die Brute-Lorce-Methode ist ein Losungs- 
verfahren, das Probleme lost indem es alle 
Moglichkeiten durchprobiert 

Heuristik 

Im Allgemeinen ist eine Heuristik ein zur 

Losung eines Problems verwendetes Ver- 
fahren, das nicht garantieren kann, die exak- 
te Losung zu finden. In diesem Dokument 
werden die einzelnen Teilelemente einer 
Zustandsbeschreibung als Heuristik be- 
zeichnet. 

Manhattan Distanz 

Die Manhattan Distanz ist eine Metrik in 

der der Ab stand zweier Punkte als die 

Summe der absoluten Differenzen ihrer 

Einzelkoordinaten definiert wird. 

Ply 

Ein Ply ist ein Halbzug. Die Aktion von 

Schwarz ist ein Ply, die Aktion von weifi ein 
zweiter. Zwei Plys bilden einen Zug. 

Sigmoidfunktion 

Eine Sigmoidfunktion ist eine mathemati- 
sche Funktion, die einen S-formigen Gra- 
phen besitzt. 
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